AI资讯新闻榜单内容搜索- DeepSeek-

ICLR 2026｜UIUC：一行代码彻底解决LLM推理的过度思考！

2025 年 1 月 20 日，DeepSeek 发布了推理大模型 DeepSeek-R1，在学术界和工业界引发了对大模型强化学习方法的广泛关注与研究热潮。研究者发现，在数学推理等具有明确答案的任务

来自主题: AI技术研报

7913 点击 2026-02-08 11:52

刚刚，DeepSeek又探索新架构了，开源OCR 2

嘿！刚刚，DeepSeek 又更新了！这次是更新了十月份推出的 DeepSeek-OCR 模型。刚刚发布的 DeepSeek-OCR 2 通过引入 DeepEncoder V2 架构，实现了视觉编码从「固定扫描」向「语义推理」的范式转变！

来自主题: AI资讯

10255 点击 2026-01-27 17:15

R1一周年，DeepSeek Model 1悄然现身

2025 年 1 月 20 日，DeepSeek（深度求索）正式发布了 DeepSeek-R1 模型，并由此开启了新的开源 LLM 时代。在 Hugging Face 刚刚发布的《「DeepSeek 时刻」一周年记》博客中，DeepSeek-R1 也是该平台上获赞最多的模型。

来自主题: AI资讯

11886 点击 2026-01-21 09:51

挑战GRPO，英伟达提出GDPO，专攻多奖励优化

GRPO 是促使 DeepSeek-R1 成功的基础技术之一。最近一两年，GRPO 及其变体因其高效性和简洁性，已成为业内广泛采用的强化学习算法。

来自主题: AI技术研报

8528 点击 2026-01-12 09:34

经验记忆黑科技：LightSearcher让AI工具调用减39.6%、推理快48.6%

如今，以 DeepSeek-R1 为代表的深度思考大模型能够处理复杂的推理任务，而DeepSearch 作为深度思考大模型的核心搜索器，在推理过程中通过迭代调用外部搜索工具，访问参数边界之外的最新、领域特定知识，从而提升推理的深度和事实可靠性。

来自主题: AI技术研报

7513 点击 2025-12-18 09:46

小米突然发布新模型：媲美 DeepSeek-V3.2，把手机的性价比卷到 AI

开源模型再次迎来一位重磅选手，就在刚刚，小米正式发布并开源新模型 MiMo-V2-Flash。

来自主题: AI技术研报

10906 点击 2025-12-17 11:52

DeepSeek V3到V3.2的进化之路，一文看全

12 月 1 日，DeepSeek 一口气发布了两款新模型：DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。几天过去，热度依旧不减，解读其技术报告的博客也正在不断涌现。知名 AI 研究者和博主 Sebastian Raschka 发布这篇深度博客尤其值得一读，其详细梳理了 DeepSeek V3 到 V3.2 的进化历程。

来自主题: AI技术研报

9980 点击 2025-12-08 12:48

老外傻眼！明用英文提问，DeepSeek依然坚持中文思考

就在前天，DeepSeek 一口气上新了两个新模型，DeepSeek-V3.2 和 DeepSeek-V3.2-Speciale。

来自主题: AI技术研报

9123 点击 2025-12-04 11:37

3B Image Captioning小钢炮重磅来袭，性能比肩Qwen2.5-VL-72B

今天推荐一个 Dense Image Captioning 的最新技术 —— CapRL (Captioning Reinforcement Learning)。CapRL 首次成功将 DeepSeek-R1 的强化学习方法应用到 image captioning 这种开放视觉任务，创新的以实用性重新定义 image captioning 的 reward。

来自主题: AI技术研报

10828 点击 2025-10-29 10:24

X上63万人围观的Traning-Free GRPO：把GRPO搬进上下文空间学习

年初的 DeepSeek-R1，带来了大模型强化学习（RL）的火爆。无论是数学推理、工具调用，还是多智能体协作，GRPO（Group Relative Policy Optimization）都成了最常见的 RL 算法。

来自主题: AI技术研报

8101 点击 2025-10-23 11:41